Wykorzystanym zbirem danych jest Home Equity (HMEQ), zawierający informacje o 5960 klientach banku, którzy otrzymali kredyty hipoteczne.
Na podstawie zbioru próbowałam przewidzieć prawdopodobieństwo defaultu, czyli faktu, że klient będzie zalegał z płatnościami – określa to binarna zmienna BAD (1 oznacza default). Pozostałe 12 zmiennych opisuje m.in. historię kredytową aplikującego, historię zawodową oraz charakterystyki obecnej pożyczki.
Więcej informacji na temat danych można znaleźć pod linkiem https://www.kaggle.com/ajay1735/hmeq-data
Sprawdzenie, które zmienne są numeryczne:
Predykcje modelu dla pojedynczej obserwacji:
Przykładowe wyjaśnienie metodą LIME.
W przypadku aplikującego opisanego powyżej (którego prawdziwa wartość zmiennej zależnej to 1, czyli popadnięcie w default) okazuje się, że na jego niekorzyść działa przede wszystkim
Trochę mniejszy wpływ mają
Pozytywny wpływ miały z kolei zmienne:
Przykładowe wyjaśnienie metodą Ceteris Paribus (najważniejsze zmienne wg LIME).
Nieco zaskakujące jest, że zmiana DEBTINC nie wpływa na zmianę predykcji, mimo bycia najważniejszą zmienną wg LIME, co oznacza, że w przy tych samych wartościach pozostałych zmiennych nie ma znaczenia stosunek długów do dochodów aplikującego o kredyt.
Zmienna CLAGE z kolei okazała się bardzo niestabilna: widzimy pionowy spadek przy wartości około 123 miesięcy, co oznacza, że (przy ustalonych wartościach pozostałych zmiennych) po przekroczeniu progu 123 miesięcy dla najdłuższej linii kredytowej, prognoza zmienia się na przeciwną (ze złej na dobrą).
Zmienne DEROG (liczba złych pozycji w raporcie kredytowym) oraz DELINQ (liczba linii kredytowych z zaległościami) zachowują się, zgodnie z oczekiwaniami, bardzo podobnie -- małe ich wartości (mniej niż dwie złe pozycje w raporcie kredytowym oraz mniej niż jedna linia kredytowa z zaległościami) dają nam pozotywną prognozę, większe -- negatywną.
Ostatnią rozważaną zmienną jest REASON_nan, czyli powód aplikowania o kredyt -- brak wypełnienia tego pola skutkuje lepszą prognozą.
Powyżej mamy dwie obserwacje z różnymi profilami Ceteris Paribus.
Co szczególnie rzuca się w oczy, to bardzo różne wykresy dla zmiennych CLAGE (wiek najdłuższej linii kredytowej) i CLNO (liczba linii kredytowych).
W przypadku pierwszej obserwacji, zaklasyfikowanej przez model słusznie jako GOOD, dłuższy czas posiadania kredytu oraz większa liczba otwartych linii kredytowych działa na jego korzyść.
Inaczej jest w przypadku drugiego klienta, zaklasyfikowanego (również słusznie) jako BAD: w jego przypadku zachowanie tych zmiennych jest nieco bardziej złożone -- w pewnym momencie maleje, by potem znowu rosnąć.
Powodem tych odmienności są najprawdopodobniej różne wartości zmiennych DEROG (liczba złych pozycji w raporcie kredytowym) oraz DELINQ (liczba linii kredytowych z zaległościami). Pierwszy klient ma je obie równe 0, co oznacza, że sumiennie spłaca kredyty i większa liczba otwartych linii kredytowych działa na jego korzyść. Inaczej jest w przypadku drugiego klienta, który ma już kredyty, na których opóźnia się ze spłatami -- zgodnie z intuicją, im więcej otwartych produktów kredytowych, tym gorzej dla jego wiarygodności.
Powyższa analiza została przeprowadzona dla innych klientów, niż uprzednio, tym razem wybrane zostały dwie obserwacje z flagą BAD, z tym że jedna z nich została poprawnie zaklasyfikowana przez model, podczas gdy druga zupełnie odwrotnie.
Pierwszą obserwacją jest ta fałszywie zaklasyfikowana jako GOOD. Widzimy, że większość zmiennych binarnych utworzonych ze zmiennych jakościowych, a więc te dotyczące pracy oraz powodu aplikowania o kredyt, mają zupełnie inny wpływ w przypadku tej obserwacji (niezależnie od wartości wpływają pozytywnie prognozę), niż w przypadku drugiej, umieszczonej poniżej (niezależnie od wartości mają negatywny wpływ).
Najbardziej istotna zmienna DEBTINC, czyli stosunek długu do dochodu, również ma różne zachowanie, choć nie tak drastycznie: w przypadku pierwszej obserwacji jest to jeden punkt odcięcia, po przekroczeniu którego wpływ na prognozę zmienia zwrot; w przypadku drugiej sytuacja jest bardziej skomplikowana -- niewielki wzrost wartości może, paradoksalnie, zmienić wpływ na prognozę na pozytywny.
Wpływ pozostałych zmiennych w przypadku drugiej obserwacji jest niezależny od ich wartości, co sugeruje, że zmienna DEBTINC gra pierwsze skrzypce. Sytuacja pierwszej obserwacji jest nieco bardziej zniuansowana: zmienne takie jak LOAN, MORTDUE oraz CLNO mają wyraźnie niemonotoniczny charakter, nie są to jednak zmienne istotne wg LIME, więc może to być po prostu "szum", niemniej jednak jest to dość alarmująca sytuacja, sugerująca, że model jest przeuczony.